Model Selection

Self-Supervised Learning

# Self-Supervised Learning

Dinov2 Base ONNX

This is the ONNX format version of the facebook/dinov2-base model, suitable for computer vision tasks.

AV HuBERT MuAViC Ru

AV-HuBERT is an audio-visual speech recognition model trained on the MuAViC multilingual audio-visual corpus, combining audio and visual modalities for robust performance.

DNA sequence embedding model based on Transformer architecture, supporting sequence alignment and genomics applications

Molecular Model

roychowdhuryresearch

TITAN is a multimodal whole slide foundation model pre-trained through visual self-supervised learning and vision-language alignment for pathology image analysis.

Multimodal Fusion

Safetensors English

A multilingual audio-visual speech recognition model based on the MuAViC dataset, combining audio and visual modalities for robust performance

Dinov2.large.patch 14.reg 4

DINOv2 is a vision transformer-based image feature extraction model that enhances feature extraction capabilities through the introduction of register mechanisms.

DINOv2 is a visual model released by Facebook Research that extracts general visual features through self-supervised learning, suitable for various downstream tasks.

Electra Small Generator

ELECTRA is an efficient text encoder that achieves excellent performance with lower computational power through discriminative pretraining rather than generative pretraining

Large Language Model English

Wav2vec2 FR 3K Base

A wav2vec2 base model trained on 2.9K hours of French speech, supporting spontaneous, read, and broadcast speech

Speech Recognition

Transformers French

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase